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A 2 
RA 


要 : [目的 / 意义 ] 挖 掘 高 校 学 生 数据 构建 学 生男 像 ， 使 高 校 管 的 学 生 形象 具体 化 ， 利 用 数据 分 析 手 段 深入 了 解 


过 程 


生 需求 ， 着 力 提 升 高 校 信息 管理 水 平 ，# 


进 管理 和 服务 智能 化 。 [方法 / 过 程 ] 基 于 高 校 管理 和 服务 过 程 产生 的 多 源 数 


5 


Se. SAADE 3 类 指标 ， 
类 算法 ， 构 建 学 生 群 体 男 像 ， 开 展 学 生男 像 实证 1 


利用 


ySQL 和 SPSS 手段 构建 学 生 个 体 画 像 ， 利 sklearn 工具 实现 k-means 聚 


剖析 学 生 画 像 的 应 用 表 和 


Python 


EF。 [结果 / 结论 ] 多 源 数据 融合 视角 下 的 学 


ZN 


Tbs 


生 画 像 可 以 从 个 体 和 群体 两 个 上 


度 构 建 ， 个 体 画 像 表现 直观 ， 群 体 画像 区 分 显著 。 可 实现 异常 识别 与 预警 、 群 体 关注 与 引导 


和 资源 规划 与 调节 等 方面 应 用 ， 有 利于 增加 高 校 管理 精度 ， 提 升学 生 获 得 感 ， 为 高 校 贫 困 助 学 、 学 业 帮 扶 和 心理 干预 等 工作 
提供 参考 。 
关键 词 : SAB; 消费 分 析 ; 社交 分 析 ; 学 业 分 析 ; k-means BA; 信息 行为 
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多 新 情况 、 新 问题 、 新 挑战 mm。 高 校 如 何 借助 技术 优势 
实现 教育 管理 的 多 层面 影响 ， 已 成 为 新 时 期 高 校 教育 
管理 研究 实践 的 重要 课题 中 。 高 校 智 慧 校园 的 内 生 需 求 


引 


Lilt 


随 着 中 国信 息 技 术 的 发 展 ， 大 数据 技术 正 逐 步 应 


之 一 即 是 基于 大 数据 分 析 实 现 校 情 研 判 并 指引 决策 制 


用 于 社会 的 各 行 各 业 ， 改 善人 们 的 学 习 、 工 作 和 生活 ， 
在 此 背景 下 ， 中 国 高 校 面临 的 内 部 结构 和 外 部 环境 正 
在 发 生前 所 未 有 的 深刻 变化 ， 学 生 管理 工作 中 存在 许 


定 ， 与 需求 相悖 的 是 高 校内 部 的 学 生 数据 通常 是 
的 、 异 构 的 、 复 杂 的 ， 甚 至 是 不 完善 的 ， 多 源 数 


海量 
据 融 


合 为 实现 校园 信息 化 治理 提供 了 新 的 研究 思路 。 此 外 ， 
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用 户 画 像 作 为 一 种 信息 化 的 用 户 描 述 工具 ， 在 用 户 描 
述 与 建 模 上 具有 优势 mg。 因 此 ， 将 传统 的 高 校 管理 经 验 
与 新 时 代 的 信息 化 手段 相 结 合 ， 建 构 高 效能 、 信 息 化 
的 教育 管理 体系 ， 已 成 为 新 时 期 提升 教育 教学 能 效 的 
关键 基础 ， 也 为 高 校 教育 教学 改革 指明 了 方向 。 


2 相关 研究 


2.1 用 户 画像 技术 的 相关 研究 


用 户 画 像 的 概念 最 早 由 A. Cooper 提出 ， 意 为 “ 真 
实用 户 的 虚拟 代表 ”， 侧 重 于 探索 用 户 的 动机 ， 是 基于 
一 系列 真实 数据 的 目标 用 户 模型 。 为 了 更 好 地 对 学 生 
数据 进行 深度 挖掘 ， 可 以 应 用 用 户 画 像 的 研究 方法 ， 
构建 面向 大 学 生 的 学 生 画 像 。 在 国外 研究 中 ， 有 部 分 
学 者 将 用 户 画 像 应 用 于 图 书馆 管理 工作 中 ， 识 别 图 书 
馆 用 户 的 独特 性 质 ， 进 一 步 开 发 和 改进 当前 服务 并 创 
建新 服务 以 满足 用 户 的 需求 四 。 有 学 者 构建 了 基于 数字 
画像 的 综合 素质 评价 模型 @。 有 学 者 提出 了 可 视 化 的 学 
习 分 析 技 术 ， 构 建 了 研究 性 学 习 学 生 画 像 g。 有 学 者 通 
过 提出 “精英 模型 ”， 对 现 有 的 学 生 画 像 完 善 拓展 中。 
在 上 述 研 究 中 ， 数 据 挖掘 的 角度 和 手段 在 不 断 地 创新 。 
既 有 面向 教学 方面 ， 实 现 学 业 预 警 ， 也 有 应 用 于 消费 
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领域 的 相关 研究 较 少 ， 存 在 一 定 的 研究 空白 ; OES 
校 管理 中 用 户 画 像 研究 中 ， 多 集中 于 图 情 管理 领域 ， 
针对 学 生 画 像 的 研究 多 停留 于 数据 分 析 层 面 ， 深 层次 
的 学 生 画 像 的 构建 及 应 用 研究 较 少 。 


2.2 大 学 生 行 为 分 析 的 相关 研究 


大 学 生 基础 素质 和 知识 水 平 较 高 ， 思 想 活 跃 ， 因 
此 ， 从 学 生 行 为 视角 和 人 手 ， 在 智慧 育 人 的 理念 下 ， 将 
高 校 学 生 的 数据 信息 作为 研究 对 象 ， 探 索 大 学 生 精 准 
服务 的 新 模式 电 ， 往 往 是 专家 学 者 开展 高 校 教育 教学 体 
制 研究 的 起 点 。 国 外 研究 中 也 常常 利用 学 生 行为 数据 
以 分 析 个 人 和 学 校 层 面 的 社会 经 济 因素 由。 高 校 中 数据 
中 心 的 数据 具有 来 源 丰 富 、 数 据 形 式 多 样 的 特征 ， 可 
开展 如 下 研究 : 巴 在 关于 显 性 数据 的 研究 中 ， 消 费 数 
据 、 学 业 数 据 等 一 系列 具有 明显 特征 的 数据 可 以 更 好 
地 被 观察 ,或 利用 统计 学 方法 ， 将 两 种 或 多 种 看 似 
不 相关 的 变量 联结 起 来 ， 发 现 其 蕴含 的 深层 相关 性 。 
名 在 关于 隐 性 数据 的 研究 中 ， 如 学 生 的 社交 行为 往往 
不 能 被 直接 观察 ， 也 不 能 通过 简单 的 推理 直接 得 到 ， 
这 就 需要 利用 如 机 器 学 习 等 数据 分 析 手 段 实 现 。 在 国 
外 的 研究 中 常常 引入 隐 性 数据 或 隐 性 知识 的 概念 ， 以 
解决 企业 运营 和 组 织 创新 等 问题 四。 有 学 者 以 中 国 大 
学 生 为 研究 对 象 ， 对 其 社交 数据 挖掘 进行 情感 分 析 ， 


方面 ， 通 过 分 析 消 费 行 为 识别 特征 群体 ， 实 现 贫 困 资 
助 工 作 的 有 效 开 展 ; 也 有 应 用 于 心理 评估 方面 ， 实 现 
重点 学 生 识别 和 关怀 。 

用 户 画 像 的 构建 方法 主要 包括 基于 用 户 行为 、 基 
于 用 户 兴趣 偏好 、 基 于 主题 、 基 于 人 格 特 征 与 情绪 4 
种 方法 ， 其 应 用 领域 大 致 涉及 电子 商务 、 健 康 医疗 、 
旅游 业 、 图 书馆 等 领域 。 在 教育 领域 的 用 户 画 像 研 究 
中 ， 主 要 集中 在 基础 教育 研究 ， 中 国有 关 高 等 教育 的 
用 户 画 像 研究 尚 处 于 起 步 阶段 。 根 据 现 有 文献 来 看 ， 
用 户 画 像 在 高 校 管理 中 的 应 用 研究 主要 包括 教育 教学 
学 生 工作 管理 和 图 书馆 管理 3 个 方面 。 通 过 对 
国内 外 有 关 高 校 学 生 画 像 研究 的 内 容 梳理 发 现 : O 
户 画 像 是 一 个 新 兴 的 研究 领域 ， 具 备 坚实 的 理论 基础 、 
成 熟 的 研究 方法 和 广泛 的 应 用 场景 ， 但 国内 有 关 教 育 


管理 、 


深入 观察 学 生 的 情感 演化 过 程 m。 国 在 多 源 数据 的 研 
究 中 ， 显 性 数据 和 隐 性 数据 可 以 综合 起 来 ， 千 江波 等 
就 从 学 生 学 籍 信息 、 学 习 表现 、 校 园 生 活 3 个 维度 进 
行 综合 分 析 ， 构 建 学 生 大 数据 行为 分 析 模型 mn。 


2.3 不 同 应 用 场景 的 相关 研究 


当前 的 高 校 数据 挖掘 研究 ， 受 现实 条 件 限 制 ， 开 
展 特定 场景 中 特定 用 户 研究 是 可 行 的 。 国 外 的 研究 中 
也 有 利用 混合 数据 对 学 生 毕 业 情 况 进行 专门 统计 ， 提 
出 一 种 确定 大 学 毕业 状态 驱动 因素 的 公正 方法 。 在 国 
内 研究 中 ， 由 于 教育 体制 不 同 ， 应 用 场景 也 有 所 不 同 : 
包 在 消费 行为 识别 研究 中 ， 通 过 分 析 校 园 一 卡通 的 消 
费 数据 ， 研 究 学 生 的 消费 行为 ， 可 以 识别 不 同 消费 行 
为 的 群体 叫 。 凶 在 贫困 资助 评估 研究 中 ， 有 学 者 在 现 


2022 年 第 34 卷 第 7 期 


77 


202303.10408v1 


chinaXiv 


78 


有 消费 数据 的 基础 上 ， 对 学 生 的 发 展 状况 进行 调查 ， 
建立 了 一 种 贫困 生 资 助 评估 模型 ， 为 识别 和 帮 扶 高 校 
贫困 生 提供 了 新 方法 中， 也 有 学 者 关注 消费 数据 和 学 
生 个 体 的 内 在 关联 ， 提 出 一 种 用 于 消费 强度 指标 ， 在 
学 生 家 庭 经 济 状 况 评 估 上 进行 了 更 为 精准 的 预测 器 。 
@ 在 心理 健康 评价 研究 中 ， 由 于 心理 相关 的 学 生 数 据 
属于 隐 性 数据 ， 不 能 通过 单一 数据 直接 观察 学 生 的 心 
理 状 况 。 因 此 ， 学 者 大 多 采用 多 数据 融合 的 方式 ， 利 
用 深度 学 习 算 法 ， 构 建 大 学 生 心理 健康 评估 模型 ， 实 
现 自动 准确 评估 大 学 生 心 理 健 康 状态 中 。@ 在 学 生 学 
业 帮 扶 研究 中 ， 一 方面 ， 通 过 采集 学 习 、 生 活 过 程 中 
产生 的 校园 行为 数据 ， 利 用 大 数据 的 手段 ， 可 以 构建 
面向 学 生 的 大 数据 分 析 模 型 ， 预 测 学 生 在 校 期 间 的 学 
WRAN, 另 一 方面 ， 数 据 驱 动 的 精准 化 学 习 评价 可 
以 发 现 教育 教学 中 存在 的 问题 ， 辅 助 课堂 教学 开展 吧 。 

这 些 研 究 既 有 基于 显 性 数据 、 隐 性 数据 的 挖掘 ， 
也 有 基于 多 源 数 据 融合 的 挖 气 ， 但 数据 挖掘 的 深度 仍 
然 不 够 ， 缺 乏 对 多 源 数据 的 深层 挖掘。 覆盖 了 多 种 应 
用 场景 ， 但 仍然 缺乏 面向 多 场景 的 研究 方法 ， 虽 然 用 
户 画像 的 提出 可 以 解决 场景 单一 的 问题 ， 但 目前 对 学 
生 画 像 的 刻画 上 仍 停留 于 框架 的 搭建 ， 实 践 层面 的 学 
生 画 像 研 究 成 果 较 少 ， 仍 有 一 定 的 研究 空白 。 因 此 ， 


ChinaXiv 合 作 期 


刊 


意识 的 群体 。 在 诸如 高 校 此 类 小 型 社会 系统 中 四， 学 
生 在 校园 学 习 、 生 活 的 同时 ， 会 建立 以 自我 为 核心 的 
社交 网 络 ， 在 范围 上 ， 既 有 以 寝室 、 专 业 、 班 级 为 单 
位 的 自然 社交 网 络 ， 也 有 跨 年 级 、 跨 学 院 、 跨 角色 的 
主观 社交 网 络 。 在 学 生 进行 社交 活动 的 过 程 中 ， 根 据 
不 同 粒度 的 用 户 行为 特征 可 以 划分 出 很 多 不 同 种 类 的 


用 户 角 色 ， 学 生 既 可 以 是 “有 影响 力 者 ”“ 专 家 ”或 
“讨论 者 "， 也 可 以 是 “支持 者 ”“ 中 立 者 ”或 “反对 
者 "。 但 是 ， 学 生 无 论 扮演 何 种 角色 ， 都 会 在 其 社交 网 


络 中 发 挥 影响 。 由 此 可 见 ， 学 生 的 校内 行为 数据 具备 
个 体 和 群体 的 双重 数据 特征 ， 反 映 真实 的 个 人 特征 和 
社交 关系 ， 在 研究 中 ， 既 要 重视 学 生 的 个 体 性 ， 又 不 
能 忽视 学 生 的 群体 特点 。 


3.2 学 生 画 像 的 属性 特征 


从 宏观 角度 来 看 ， 学 生 面 像 的 属性 特征 兼 具 静 态 
性 和 动态 性 。 从 行为 层面 来 看 ， 可 以 把 学 生 的 在 校 行 
为 划分 为 学 习 行 为 、 消 费 行为 和 社交 行为 3 类 。 

(1) 学 业 行为 指标 。 学 业 行 为 指标 主要 包括 学 业 
成 绩优 秀 度 、 学 业 努 力 程度 等 。 在 教育 领域 ,对 于 学 
生 的 学 习 评价 方式 有 很 多 ， 目 前 各 高 校 普 遍 根据 学 生 
的 培养 方案 课程 ， 以 学 分 作为 权重 计算 学 生 学 分 绩 点 ， 


本 文 以 大 学 生 行为 研究 为 出 发 点 ， 获 取 真 实 的 大 学 生 
的 校园 数据 ， 通 过 将 多 源 数据 进行 融合 ， 构 建 多 源 、 
多 维 、 多 场景 的 综合 评价 体系 。 以 消费 、 学 业 、 社 交 3 
个 维度 构建 动态 和 项 态 的 个 体 画像 。 以 消费 维度 研究 
为 主 ， 建 立 学 生 的 消费 活跃 度 和 稳定 性 画像 。 其 中 ， 
融合 的 优势 在 于 数据 、 场 景 、 深 度 的 多 元 融合 ， 最 终 
刻画 真实 的 、 智 能 的 、 多 层次 的 学 生 画 像 。 基 于 高 校 
学 生 画 像 ， 可 以 实现 精准 的 群体 圈 选 和 个 体 识 别 ， 为 
高 校 贫困 助 学 、 学 业 帮 扶 和 心理 干预 等 工作 提供 参考 ， 
从 而 为 高 校 管 理 提供 理性 决策 依据 。 


3 高 校 学 生 画 像 的 特征 分 析 
3.1 学 生 特征 分 析 


大 学 生 既 是 具有 独立 意义 的 个 体 ， 也 是 具有 社会 
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部 分 学 者 提出 以 专业 排名 作为 评价 学 业 优秀 度 的 评价 
标准 四。 在 评价 学 习 行为 的 过 程 中 ， 要 根据 学 生 学 制 、 
学 年 、 专 业 的 不 同 分 类 评价 ， 并 结合 如 奖学金 、 苋 赛 
等 学 科 竞 赛 信息 和 网 书馆 出 和 信息， 研究 学 生 的 学 习 
努力 程度 ， 构 建 客观 、 人 合理、 简洁 的 学 业 评价 指标 。 

(2) 消费 行为 指标 。 消 费 行为 指标 主要 包括 消费 
稳定 性 、 消 费 活 唉 度 、 消 费 水 平等 。 高 校 为 在 校 师 生 
提供 了 基础 的 生活 需求 保障 ， 因 此 ， 通 过 研究 校园 内 
学 生 的 消费 行为 ,包括 学 生 的 消费 时 间 、 金 额 、 地 点 
信息 ， 进 一 步 可 以 形成 消费 时 间 稳 定性 和 消费 地 点 偏 
好 等 指标 ， 并 在 一 定 程度 反映 了 学 生 参 与 校内 活动 ， 
融入 校园 生活 的 实际 情况 。 

(3) 社交 行为 指标 。 社 交行 为 指标 主要 包括 社交 
活跃 度 和 社交 距离 度 ， 受 研究 规模 影响 ， 高 校 属于 小 
型 的 社会 系统 ， 在 高 校 范围 内 开展 社交 距离 度 的 研究 


202303.10408v1 


chinaXiv 


意义 不 大 。 因 此 ， 可 以 将 社交 活跃 度 近 似 看 作 社 交行 
为 指标 。 通 过 追踪 学 生 的 消费 数据 ， 建 立 消费 “时 
间 一 地 点 ” 共 现 网 络 ， 发 现 异 常 离 群 值 ， 甄 别 学 生 群 
体 中 的 “ 离 群 者 "， 实 现 社交 行为 指标 的 确定 。 


3.3 学 生 画 像 的 数据 特征 


基于 学 生 群 体 特征 及 画像 的 属性 特征 所 构建 的 学 
生 画 像 的 数据 特征 具备 客观 性 、 全 面 性 、 融 合 性 和 动 
态 性 证 。 其 中 ， 客 观 性 是 指 学 生 画 像 基于 一 系列 真实 
数据 构建 ， 符 合 个 体 和 群体 层面 的 实际 状况 ， 反 映 真 
实 科 学 的 属性 特征 ， 数 据 来 源 客 观 、 处 理 手 段 客观 、 
研究 目的 客观 、 呈 现 方式 客观 ; 全 面 性 是 指 学 生 夯 像 
构建 涉及 学 生 行为 的 全 方面 ， 也 反映 了 学 生 特征 的 全 
方面 ， 具 体 体 现在 研究 角度 和 业务 场景 的 全 覆盖 ; 融 
合 性 是 指 各 职能 部 门 的 异 构 数据 相互 融合 ， 实 现 数据 
融合 时 要 求 完整 融合 、 按 属性 融合 、 按 业务 场景 融合 ; 
动态 性 是 指 用 户 画 像 具 有 动态 变化 的 特征 ， 个 体 在 不 
同时 期 所 表现 的 特征 不 同 ， 导 致 刻画 的 用 户 画 像 也 有 
所 差异 ， 因 此 学 生 画 像 也 是 一 个 实时 变化 的 动态 模型 。 


3.4 总 体 框架 设计 


高 校 学 生 用 户 画 像 的 数据 来 源 为 教务 管理 部 门 、 
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学 生 管理 部 门 、 一 卡通 中 心 、 网 书馆 等 职能 部 门 ， 整 
个 研究 大 致 分 为 3 个 层级 : 数据 层 、 挖 据 层 和 表征 层 ， 
如 图 1 所 示 。 吕 数据 层 。 包 括 基 本 信息 数据 、 教 务 成 
绩 数 据 、 奖 助学金 数据 、 图 书馆 门禁 记录 和 校园 消费 
数据 。 获 取 多 源 异 构 数 据 后 ， 进 行 清 洗 、 集 成 、 转 换 
和 规约 ， 完 成 数据 融合 。 包 挖掘 层 。 主 要 是 对 预 处 理 
后 的 数据 进行 指标 分 析 、 聚 类 分 析 、 相 关 性 分 析 和 共 
现 分 析 ， 然 后 建立 关于 学 生 的 消费 行为 指标 、 学 业 行 
为 指标 和 社交 行为 指标 的 标签 集 ， 建 立 个 体 画 像 和 群体 
画像 。 久 表征 层 。 利 用 学 生 个 体 画 像 实现 学 业 预 警 、 心 
理 预 警 和 贫困 帮 扶 ， 利 用 学 生 和 群体 画像 实现 重点 群体 识 
别 、 群 体 行为 预测 和 校园 资源 规划 等 方面 的 应 用 表征 。 


4 研究 过 程 


4.1 数据 采集 


本 实验 选取 黑龙 江 省 某 高 校 2018 级 、2019 级 在 校 
AE 2019—2020 年 的 学 生日 常 行为 记录 数据 作为 数据 
集 ， 利 用 MySQL 导出 数据 40 余 万 条 。 包 括 基本 信息 
数据 、 教 务 成 绩 数据 、 奖 助学金 数据 、 图 书馆 门禁 记 
录 和 校园 消费 数据 5 张 数据 表 ， 基 本 情况 如 表 1 所 示 。 


1 
| ! ii AS 
| HT 
l cen 
! 学 业 预 警 动态 画像 
| 
| 
| 心理 预 葡 1“ 三 一 一 一 
| ! 活跃 度 画像 
l 
iii | 稳定 性 西 像 
l 
表征 层 4 | 群体 识别 | 
| 
l 
| 资源 规划 | 教务 管理 部 门 
1 
l 
| 学 生 管理 部 门 
| 数据 呈现 | 
l Lge 一 卡通 中 心 He 
l 
i 图 书馆 
i | 
| 1 
| 1 
L l 


SEE 共 现 分 析 
消费 行为 指标 
K-means 聚 类 
学 业 成 绩 指标 | 一 挖掘 层 
= 相关 性 分 析 
社交 行为 指标 指标 分 析 
ee 1 
自然 属性 信息 
教务 成 绩 信 息 
奖 助学金 信息 toa 数据 层 
校园 消费 信息 
图 书馆 门禁 信息 


图 1 高 校 学 生 用 户 画 像 构建 


IHI 


an 


Fig.1 Construction framework of college student user profiles 
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表 1 学 生 基 本 数据 
Table 1 Basic student data 
授权 部 门 表 名 列 名 
学 生 工 作 部 基本 信息 数据 学 号 、 年 级 、 专 业 、 学 制 、 学 籍 状态 
奖 助学金 数据 学 号 、 年 级 、 专 业 、 奖 学 金 名 称 、 奖 学 金 级 别 、 获 奖 时 间 、 助 学 金 名 称 、 助 学 金 级 别 、 获 助 时 间 

教务 处 教务 成 绩 数据 学 号 、 年 级 、 专 业 、 课 程 名 称 、 课 程 类 别 、 学 分 、 成 绩 
图 书馆 图 书馆 门禁 数据 学 号 、 卡 号 、 刷 卡 时 间 、 闻 机 号 
一 卡通 中 心 校园 消费 数据 (一 卡通 ) 学 号 、 消 费时 间 、 消 费 金额 、 消 费 后 余额 、 消 费 地 点 、 消 费 商 户 名 称 

校园 消费 数据 在 线 支 付 ) ”学 号 、 消 费时 间 、 消 费 金 额 、 消 费 后 余额 、 消 费 地 点 、 消 费 商户 名 称 、 消 费 类 别 〈 微 信 、 支 付 宝 ) 


4.2 数据 预 处 理 


各 个 部 门 授权 的 数据 多 为 结构 化 数据 ， 将 授权 后 
的 数据 导入 到 SPSS 进行 处 理 ， 清 洗 部 分 格式 不 规范 或 
错误 的 数据 后 ， 将 数据 表 以 “学 号 ”字段 作为 特征 匹 
配 项 进行 数据 融合 ， 保 留 以 “学 号 ”为 字段 的 研究 对 
象 593 个 ， 时 间 范 围 为 2019 年 3 月 至 2020 年 12 H, 
共 4 个 学 期 。 其 中 ， 受 新 冠 肺炎 疫情 影响 ，2020 年 上 
半年 未 正常 开展 线 下 教学 工作 ， 因 此 2020 年 上 半年 的 
消费 记录 不 计 入 研究 范围 。 


4.3 数据 分 析 与 特征 提取 


4.3.1 学 生 消费 行为 特征 

根据 “消费 地 点 ”字段 ， 可 以 将 消费 数据 按 “ 日 
常生 活 ”“ 健 身 洗浴 ”“ 基 本 饮食 ”和 “健康 医疗 ” 
分 类 。 根 据 “ 消 费 地 点 ”字段 ， 结 合 校园 内 商户 的 分 
布 情况 ， 将 消费 数据 的 地 点 按 “A 区 ”“B 区 ”和 “C 
区 ”分 类 。 在 “基本 饮食 ”分 类 下 ， 结 合 食油 的 实际 
开放 时 间 和 就 餐 高 峰 人 数 统计 ， 划 分 “6:00 一 9:30” 为 
早餐 时 间 、“10:30 一 14:00” 为 午餐 时 间 、“16:30 一 
20:00” 为 晚餐 时 间 ， 并 将 同一 时 间 段 内 的 多 笔 消 费 合 
并 为 一 笔 。 

经 过 征集 学 生 的 消费 习惯 ， 并 结合 学 校 实际 情况 。 
学 生 在 校园 内 的 饮食 与 购物 行为 习惯 基本 一 致 ， 且 
“基本 饮食 ”支出 比重 较 大 ， 可 以 将 就 餐 行 为 近似 视 作 
学 生 的 消费 行为 。 因 此 ， 本 研究 中 学 生 的 “消费 行为 ” 
数据 按 “ 就 餐 行为 ”数据 计算 。 

就 餐 时 间 稳 定 系数 是 对 学 生 就 餐 时 间 稳 定性 的 描 
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$, WA, WAR (1) MR: 
_ Misa MT sa, X Nm, 
i=1 Nm, 
HP, Ma 表示 第 i 个 餐 别 就 餐 时 间 的 标准 差 ， 
其 计算 方法 如 公式 (2) 所 示 ; NN 表示 第 i 个 餐 别 就 餐 
总 次 数 ; n 表示 和 餐 别 种 类 ， 本 文 取 值 为 3。 


MTsa, = Xe aE (2) 


其 中 ,WN 表示 某 个 餐 别 的 就 餐 总 次 数 ; T, RIRE 
个 餐 别 的 第 7 次 就 餐 时 间 ; 了 表示 某 个 餐 别 的 平均 就 餐 
时 间 。 
4.3.2 学 生 学 业 行 为 特征 

学 生 的 学 业 行 为 特征 主要 由 学 业 优 秀 度 评价 ， 同 
一 年 级 、 同 一 专业 的 学 生成 绩 排 名 越 高 ， 其 学 业 优秀 
度 也 就 越 高 。 学 业 优秀 度 是 对 学 生 学 业 成 绩 的 优秀 程 
度 的 描述 ， 记 为 ao， 如 公式 (3) 所 示 。 

i (3) 


Gmax = Gmin 


A (1) 


G 表示 学 生 的 学 分 绩 点 ， 如 公式 (4) 所 示 ; Gra 
表示 某 学 生 所 在 专业 最 高 成 绩 ，G, 表示 某 学 生 所 在 专 
业 最 低 成 绩 。 


diet Gi X Fi 


papal al a 4 
10 x £F; (4) 


G 


其 中 ，G; 表示 某 学 生 在 第 i 门 课程 中 的 期 未 成 绩 ; 
玉 表 示 某 学 生 第 i 门 课程 的 学 分 值 ，n 表示 某 学 生年 度 
选修 的 课程 总 数 。 

此 外 ， 学 生 的 学 业 行 为 特征 包括 学 业 努 力 程 度 评 
价 ， 而 学 业 努 力 程度 评价 可 以 通过 获取 在 学 习 行为 上 
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付出 的 时 间 计 算得 出 ， 主 要 体现 为 一 个 学 期 内 学 生 进 
出 图 书馆 的 有 效 次 数 ， 但 学 生 进 出 图 书馆 次 数 并 不 与 
学 业 行 为 直接 相关 ， 只 能 作为 学 业 行为 特征 的 辅助 评 
价 指标 。 

4.3.3 学 生 社交 行为 特征 

好 友 关 系 是 学 生 社交 行为 的 重要 体现 ， 是 学 生 社 
交 网 络 研究 的 主要 内 容 。 学 生 往 往 会 和 同 寝室 与 同班 
级 的 好 友 一 起 出 行 ， 如 果 两 个 人 多 次 在 同一 时 间 段 、 
同一 地 点 存在 消费 行为 ， 且 共 现 的 概率 值 大 于 一 定 的 
阔 值 时 ， 则 认为 两 个 人 存在 好 友 关 系 。 在 已 有 的 关联 
规则 基础 上 ， 借 鉴 已 有 学 者 的 共 现 网 络 算法 ， 假 设 学 
生 蕊 在 某 一 时 刻 进行 食堂 刷卡 消费 行为 ， 在 一 定 的 时 
HEIA, Æ Y 也 在 同一 消费 地 点 出 现 刷卡 消费 行 
为 ， 则 认为 学 生 羡 与 Y 存在 共 现 行为 ， 当 关联 规则 
XY 满足 最 小 支持 度 和 最 小 置信 和 度 国 值 时 ， 认 为 学 生 
和 学 生 工 之 间 存 在 关联 ， 即 认定 两 人 为 好 友 关 系 。 

在 社交 共 现 分 析 中 ， 学 生 和 和 学 生 了 的 好 友 关 系 
反映 到 数据 层面 ， 可 以 理解 为 学 生 X 和 学 生 了 共 现 的 
次 数 足 够 大 ， 且 共 现 的 消费 记录 占 自 身 所 有 消费 记录 
较 大 比重 。 因 此 ， 设 置 最 小 置信 度 为 6 =0.5， 最 小 支 
持 度 a 如 公式 (5) 所 示 。 


R 
SS 5 
oan (5) 


N ean BA in RA BR ee Be, OR 表示 所 有 学 生 
的 刷卡 消费 记录 总 数 。 

为 计算 学 生 和 和 学 生 了 好 友 关 系 的 可 能 性 ， 引 入 
置信 和 度 Ce 如 公式 (6) 所 示 。 


Sx oY (6) 


HP, Sor 为 学 生 达 和 学 生 了 的 共 现 次 数 ，S$x* 为 
学 生 苞 刷卡 消费 的 总 次 数 。 

在 对 学 生 X 和 学 生 了 的 好 友 关 系 判 定 过 程 中 ， 首 
先 ， 计 算 学 生 X ME Y WRR Sr, A Sr 
a， 则 说 明 两 人 的 共 现 次 数 足 够 高 ; 下 一 步 ， 则 计算 学 
Æ X ME Y 的 好 友 可 能 性 置信 和 度 Cy, Æ Coy=B， 
则 说 明 两 人 存在 好 友 关 系 。 
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在 学 生 个 体 画像 的 构建 中 ， 通 过 对 消费 、 社 交 和 
学 业 数 据 的 指标 进行 分 类 ， 获 取 画 像 标 签 ， 可 以 实现 
学 生 整 体 状 况 的 观测 。 利 用 MySQL 数据 库 完 成 数据 清 
BE, SPSS 对 数据 进行 处 理 与 分 析 ， 获 取 学 生 有 关 学 业 
行为 、 消 费 行为 和 社交 行为 的 3 类 指标 。 本 研究 选取 
学 生 4 作为 案例 ， 如 表 2 所 示 。 其 标签 信息 加 载 到 学 
生 个体 画 像 模型 ， 如 图 2 所 示 。 其 中 ，“ 值 ”内 的 文 
本 部 分 为 画像 的 分 类 属性 ， 根 据 学 生 的 排名 位 次 分 类 
得 到 。 

(1) 在 学 业 画 像 中 ， 整 体 上 看 ， 该 生 学 业 成 绩优 
秀 ， 在 学 业 成 绩 位 于 同 专 业 前 列 ， 数 据 表示 前 往 图 书 
馆 的 次 数 较 多 ， 学 业 努 力 程度 和 学 业 优 秀 度 都 很 高 ， 
且 没 有 任何 违纪 处 分 ， 可 以 推测 该 生 具 有 较 强 的 自主 
学 习 能 力 和 自我 约束 力 ， 同 时 验证 了 学 业 努 力 程度 与 
学 业 优 秀 度 存 在 一 定 的 正 相 关 关 系 。 

(2) 在 消费 画像 中 ， 该 生 表 现 出 较 强 的 消费 稳定 
性 和 消费 活路 性 ， 总 消费 次 数 较 高 ， 常 常 使 用 在 线 支 
付 的 方式 ， 初 步 推 测 平时 校内 生活 较为 丰富 。 此 外 ， 
在 消费 地 点 的 选择 上 ， 学 生 的 消费 记录 在 4 区 较 多 ， 
推测 该 生 的 校内 活动 受 一 定时 空 因 素 的 限制 ， 或 受 个 
人 主观 因素 影响 ， 在 校内 活动 时 轨迹 较为 集中 。 男 一 
方面 ， 该 生 的 就 餐 时 间 集 中 在 中 午 较 多 ， 在 早上 的 就 
ELERS, HADE, MERZA, MN 
健康 的 饮食 习惯 。 

(3) 在 社交 画像 中 ， 该 生 的 社交 评价 为 优秀 社交 ， 
初步 认定 该 生 拥 有 良好 的 社交 关系 ， 有 具备 一 定 的 社交 
能 力 和 团体 意向 ， 进 一 步 推测 此 学 生 现 阶段 处 于 心理 
健康 积极 的 状态 ， 在 生活 中 遇 到 困难 时 会 更 易 得 到 好 
友 的 帮助 。 

综 上 ， 该 生 呈 现 出 学 业 优 秀 、 消 费 活跃 、 社 交 良 
好 的 应 届 毕 业 生 形象 ， 结 合 学 业 、 消 费 和 社交 3 个 维 
度 的 综合 评 佑 ， 该 生 属 于 高 活跃 的 校园 生活 者 ， 为 人 
努力 上 进 ， 心 理 健康 向 上 ， 虽 然 在 消费 MRE) 规律 
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表 2 学 生 夯 像 标 签 信息 


Table 2 Student profile label information 


类 别 标签 解释 {if 属性 
性 别 男 、 女 静态 
3 然 属 性 年 级 自学 生 入 学 起 ， 不 随时 间 更 改 的 自然 属性 指标 静态 
专业 背景 静态 
学 业 优秀 关于 学 生 学 习 行为 的 结果 性 评价 指标 ， 即 该 生 在 0%~10%: 优秀 动态 
同一 年 级 、 同 一 专业 内 的 学 习 成 绩 排名 10%~30%: 良好 
30%~60%: 合格 
60%~100%: 不 合格 
学 业 行为 标签 学 业 努 力 ”关于 学 生 学 习 行为 的 过 程 性 评价 指标 0%~10%: 非常 努力 动态 
10%~30%: 很 努力 
30%~60%: 努力 
60%~100%: MEZAJ 
违纪 行为 ” ”关于 学 生 学 习 真 伪 性 的 辅助 评价 指标 有 违纪 、 无 违纪 动态 
消费 水 平 。 ”关于 学 生 消费 水 平 的 评价 指标 , 即 该 生 的 总 消费 0%~33%: 高 水 平 动态 
金额 在 样本 群体 中 的 相对 水 平 33%~66%: 中 水 平 
66%~100%: 低 水 平 
消费 次 数 。 ”关于 学 生 消 费 次 数 的 评价 指标 ， 即 该 生 的 总 消费 0%~33%: 高 次 数 动态 
次 数 在 样本 群体 中 的 相对 水 平 33%~66%; 中 次 数 
66%~100%: 低 次 数 
eee 消费 规律 。 关于 学 生 消费 规律 的 评价 指标 ， 即 该 生 的 不 同时 时 间 稳定 系数 大 于 样本 群体 均值 ;稳定 动态 
段 消费 时 间 的 波动 程度 时 间 稳定 系数 小 于 样本 群体 均值 ;不 稳定 
BR 关于 学 生 消费 行为 的 时 间 偏 好 ， 即 该 生 有 效 消费 早上 、 中 午 、 下 午 动态 
次 数 最 高 的 时 自 
地 点 偏好 关于 学 生 消费 行为 的 地 点 偏好 ， 即 该 生 有 效 消费 AR. BE. CK 动态 
次 数 最 高 的 地 理 位 置 区 域 
支付 偏好 ”关于 学 生 消 费 行为 的 支付 偏好 ， 即 该 生 有 效 消费 ”一 卡通 支付 、 在 线 支付 〈 含 支付 宝 和 微 信 ) 动态 
次 数 最 高 的 支付 方式 
社交 评价 关于 学 生 社交 行为 的 评价 指标 ,， 即 该 生 可 疑 好 友 ”” 可 疑 好 友 数 大 于 样本 群体 均值 ， 优 秀 社交 动态 
社交 行为 标签 
数量 在 样本 群体 中 的 相对 水 平 可 疑 好 友 数 小 于 样本 群体 均值 ， 加 强 社交 
F 性 别 年 级 EISE 上 呈现 不 稳定 的 状态 ， 但 是 整体 还 是 自律 的 学 生 。 由 
a z 2017 | AER 于 学 生 处 于 大 四 毕业 期 间 却 仍 有 高 度 的 学 业 努 力度 ， 
Bigs oe ol ee ee 可 以 初步 预测 学 生 有 求学 备考 或 求职 复习 的 准备 ， 学 
| 校 针 对 此 类 学 生 可 以 提供 针对 的 信息 推送 服务 或 安排 
高 水 平 | 。 高 次 数 。 | ”不 稳定 对 应 的 辅导 课程 。 
消费 行为 标签 à 
时 间 偏好 “| “地 点 偏好 “| 支付 偏好 
中 午 A 区 在 线 支付 5:2 学 生 和 群体 消费 画像 
ere 社交 评价 = 
社交 行为 标签 ere 5.2.1 基于 消费 活跃 度 的 群体 画像 
orem 本 文 主要 采用 K-means 聚 类 方法 对 学 生 行 为 特征 
图 2 学 生 4 的 学 生 个 体 画像 标签 信息 


Fig. 2 Personal profile labels of student A 
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聚 类 算法 ， 对 学 生 的 “就 餐 天 数 ”“ 就 餐 金额 ”进行 
聚 类 ， 以 探究 使 学 生 用 和 餐 行 为 的 共性 群体 ， 实 验 过 程 
H, MERKA k 的 增 大 ， 样 本 划分 会 更 加 精细 ， 每 
个 簇 的 聚合 程度 会 逐渐 提高 ， 因 此 ， 利 用 手 肘 法 可 以 
确定 上 值 的 继续 增 大 而 趋 于 平缓 的 拐点 。 如 图 3 所 示 ， 
BBL k=2 时 的 聚 类 效果 较 好 ， 聚 类 中 心 的 各 项 特征 
数据 值 如 表 3 所 示 。 
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图 3 MERIO “MEER REA k PE 


Fig.3 "Dining days" and "dining expenditure" clusters with 


different k values 


表 3 就 餐 行 为 聚 类 中 心 


Table 3 Dining behavior cluster centers 


聚 类 特征 类 别 1 类 别 2 
就 餐 天 数 / 天 91.28 64.78 
就 餐 金额 /元 1 757.39 933.86 


在 根据 就 餐 行为 聚 类 中 心 结 果 中 ， 通 过 对 学 生 的 
“就 餐 天 数 ”“ 就 餐 金额 ”进行 聚 类 ， 可 以 有 效 衡量 学 
生 的 消费 活跃 度 和 校园 活跃 度 。 其 中 ， 类 别 1 的 学 生 
有 216 人 ， 占 比 为 36.42%; 类 别 2 的 学 生 有 377 A, 
占 比 为 63.58%。 

类 别 1 的 学 生 消费 天 数 较 多 ， 消 费 金额 也 明显 高 
于 其 他 聚 类 中 心 ， 处 于 此 类 别 的 学 生 属 于 消费 活跃 度 
高 的 群体 ， 他 们 在 学 校 消费 的 天 数 和 金额 都 很 高 。 此 
外 ， 不 仅 在 消费 活跃 度 上 ， 在 校园 生活 中 也 表现 出 极 
高 的 活跃 度 ， 属 于 校园 生活 的 重要 参与 者 。 往 往 这 类 
学 生 都 比较 关注 学 校 相关 政策 和 服务 设施 的 变化 ， 在 
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黄 泰 华 , Kk 涛 , 王 乔 
“消费 -学业 - 社交 ”画像 构建 研究 


多 源 数据 融合 视角 下 的 大 学 生 


学 校 开 展 校园 意见 征集 时 ， 此 类 学 生 的 意见 将 具备 

定 的 参考 性 。 此 外 ， 在 此 类 消费 活跃 度 高 的 学 生 中 ， 
会 存在 消费 天 数 高 于 聚 类 中 心 ， 且 消费 金额 低 于 聚 类 
中 心 的 情况 ， 此 类 学 生 的 日 常 饮食 都 会 在 食堂 进行 ， 
而 且 单 次 消费 水 平 较 低 ， 可 以 考虑 是 否 存在 贫困 情况 ， 
学 校 也 应 重点 关注 此 类 学 生 ， 为 其 日 常生 活 提供 必要 
及 时 的 保障 。 

类 别 2 的 学 生 消费 天 数 和 消费 金额 都 处 于 中 等 水 
平 ， 也 是 占 全 体 学 生 较 大 比例 的 一 部 分 群体 。 这 些 学 
生 消 费 活 跃 度 适中 ， 无 法 通过 就 餐 天 数 和 就 餐 金 额 判 
断 学 生 的 贫困 情况 ， 可 以 结合 学 生 的 助学金 申请 情况 ， 
将 消费 活跃 度 适中 ， 但 就 餐 天 数 远 高 于 聚 类 中 心 的 学 
生 判 定 是 否 为 贫困 生 ， 为 学 校 的 助 学 工 作 提供 参考 。 
5.2.2 基于 消费 稳定 性 的 群体 画像 

对 学 生 的 “早餐 就 餐 率 ”“ 午 餐 就 餐 率 ”和 “ 晚 
餐 就 餐 率 ”进行 聚 类 ， 实 验 过 程 中 ， 不 断 调 节 上 大 值 分 
别 进行 实验 对 比 ， 发 现 当 k=3 时 的 聚 类 效果 较 好 ， 如 
图 4 所 示 ， 聚 类 中 心 的 各 项 特征 数据 值 如 表 4 所 示 。 
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图 4 “早餐 就 餐 率 ”“ 午 餐 就 餐 率 ”和 “晚餐 就 餐 率 ” 
RAKT] k HUE 


Fig.4 "Breakfast rate", "lunch rate" and "dinner rate" clusters 


with different k values 


在 根据 就 餐 行为 聚 类 中 心 结果 中 ， 通 过 对 学 生 的 
PEMER “FEWER M MERER” HIT 
聚 类 ， 可 以 有 效 衡量 学 生 的 消费 稳定 性 和 自律 性 。 其 
中 ， 类 别 1 的 学 生 有 65 A, HELA 10.96%; 类 别 2 
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表 4 就 餐 规 律 聚 类 中 心 


Table 4 Clustering centers of dining patterns 


聚 类 特征 类 别 1 类 别 2 类 别 3 
早餐 就 餐 率 0.499 0.171 0.084 
午餐 就 餐 率 0.654 0.403 0.157 
晚餐 就 餐 率 0.561 0.242 0.087 


的 学 生 有 209 人 ， 占 比 为 35.25%; 类 别 3 的 学 生 有 
319 人 ， 占 比 为 53.79%, 

类 别 1 的 学 生 三 餐 就 餐 率 都 很 高 ， 和 其 他 聚 类 中 
心 相 比 ， 此 类 别 的 学 生 一 般 都 有 着 健康 的 饮食 习惯 ， 
在 生活 习惯 上 反映 出 较 强 的 自律 性 。 类 别 2 的 学 生 午 
餐 就 餐 率 较 高 ， 但 早餐 和 晚餐 就 餐 率 较 低 ， 此 类 别 的 
学 生 通 常 就 餐 不 规律 ， 早 餐 就 餐 率 较 低 的 学 生 通 常 早 
起 率 也 很 低 ， 缺 乏 生活 习惯 上 的 自我 约束 ; MEME 
率 较 低 的 学 生 考 虑 存在 节食 的 情况 ， 应 当 鼓励 此 类 学 
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典型 特征 区 分 ， 在 消费 稳定 性 和 活跃 度 上 表现 出 明显 
的 群体 属性 。 在 消费 活路 画像 的 结果 分 析 中 ， 学 生 被 
分 类 成 典型 的 高 活跃 和 低 活跃 两 个 群体 ， 给 予 低 活路 
群体 更 多 关注 。 同 理 ， 在 消费 稳定 性 的 结果 分 析 中 ， 
学 生 被 分 类 成 高 稳定 、 中 稳定 和 低 稳 定 3 个 群体 。 在 
实际 的 学 生 管 理工 作 中 ， 学 生 工 作 部 门 和 辅导 员 应 当 
更 多 关注 低 活跃 和 低 稳 定 群 体 ， 发 现 学 生存 在 的 潜在 
不 良 消费 习惯 和 饮食 习惯 ,尤其 是 在 疫情 防 控 管 理 期 
间 ， 对 校内 消费 画像 进行 观察 ， 更 好 的 预 判 校内 与 社 
会 面 的 接触 风险 ， 对 相关 学 生 进 行 及 时 有 效 地 引导 和 
规劝 。 

(3) 校园 资源 规划 与 调节 。 结 合 学 生 个 体 画 像 和 
群体 画像 的 结果 ， 学 生 的 早晚 餐 习惯 状况 从 佳 。 为 养 
成 良好 的 消费 习惯 和 用 餐 习 惯 ， 可 以 利用 学 生 画 像 对 
校内 资源 规划 进行 预 判 和 规划 ， 如 为 学 生 消费 较 多 的 


生养 成 健康 的 饮食 习惯 ， 形 成 科学 规律 的 生活 作息 。 
类 别 3 的 学 生 三 餐 就 餐 率 都 很 低 ， 此 类 学 生 同 样 存在 
校内 活动 少 的 情况 ， 存 在 校外 就 餐 和 订 外 卖 的 情况 ， 
无 法 通过 校园 消费 数据 准确 推测 其 生活 习惯 。 


5.3 高 校 学 生 画 像 的 应 用 表征 


基于 多 源 数 据 融合 的 高 校 学 生 画 像 构建 ， 结 合 学 
生 三 维 行为 特征 ， 可 以 分 别 构建 学 生 个 体 画 像 和 学 生 
群体 画像 。 针 对 面向 的 业务 场景 不 同 ， 学 生 画 像 也 有 
着 不 同方 面 的 应 用 表征 。 

(1) 学 生 异 常识 别 与 预警 。 通 过 对 学 生 个 体 画 像 
的 观测 ， 可 以 对 学 生 的 消费 、 学 业 和 社交 3 个 方面 进 
行 初步 评估 ， 发 现在 学 生 画 像 中 表现 出 的 优势 值 ， 为 
评奖 评 优 工作 提供 参考 ， 为 助 学 助 困 工 作 提供 证 明 。 
对 学 业 努 力 且 学 业 优秀 ,但 违纪 次 数 异 常 值 的 发 现 ， 
方便 及 时 安排 重点 关注 及 谈心 谈话 。 此 外 ， 通 过 对 学 
生 画 像 动态 观测 ， 对 比 变化 及 时 预警 ， 有 利于 学 生 工 
作 部 门 和 辅导 员 发 现存 在 的 学 业 和 心理 问题 ， 及 时 帮 
助 学 生 应 对 在 思想 取向 、 价 值 引领 、 学 习 生活 、 择 业 
交友 等 方面 的 具体 问题 。 

(2) 学 生 群 体 关注 与 引导 。 基 于 聚 类 算法 的 学 生 
群体 画像 构建 ， 聚 焦 于 学 生 的 消费 行为 ， 发 现 学 生 的 
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校区 开设 更 多 的 就 餐 座 位 ， 延 长 就 餐 时 间 ， 减 轻 高 峰 
就 餐 压 力 。 在 消费 较 少 的 校区 开设 特色 餐厅 ， 引 导 学 
生 分 布 就 餐 ， 利 用 分 流 缓解 就 餐 压 力 。 另 外 ， 为 提高 
学 生 早晚 就 餐 率 及 就 餐 稳 定性 ， 学 校 可 以 推出 更 多 种 
类 和 餐 品 ， 配 合 开展 健康 饮食 习惯 普及 宣传 活动 ， 帮 助 
学 生养 成 良好 的 就 餐 习 惯 ， 实 现 资 源 的 科学 、 合 理 、 
人 性 规划 ， 为 调节 学 校 资 源 分 配 和 决策 提供 具体 参考 。 


本 文 以 高 校 数据 化 管理 为 研究 背景 ， 对 高 校 数 据 
挖掘 研究 进行 以 下 创新 。 首 先 ， 本 文 尝试 利用 一 种 新 
的 数据 融合 视角 ， 通 过 将 显 性 数据 与 隐 性 数据 融合 ， 
并 生成 有 关 消费 行为 、 学 业 行 为 和 社交 行为 三 维 指 标 。 
其 次 ， 为 了 解决 以 往 研 究 中 应 用 场景 单一 问题 ， 现 利 
用 用 户 画 像 的 手段 ， 实 现 多 场景 的 融合 。 最 后 ， 本 人 研 
究 基于 学 生 的 真实 数据 ， 在 以 往 学 生 画 像 的 研究 基础 
上 ， 利 用 SPSS 和 K-means 聚 类 算法 等 方法 ， 圈 选 不 同 
寺 征 的 学 生 和 群体 ， 同 时 利用 学 生 共 现 网 络 ， 研 究 学 生 
的 社交 关系 ， 对 某 高 校 学 生 数 据 进行 分 析 ， 进 一 步 进 
行 了 实证 研究 ， 刻 画 大 学 生 的 “消费 - 学 业 -社交 ” 画 
像 。 在 多 源 数据 融合 视角 下 构建 学 生 画 像 ， 可 以 有 多 
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为 高 校 教务 、 学 工 等 部 门 决策 提供 依据 ， 尤 其 是 后 疫 
情 时 代 对 大 学 生 画 像 可 以 及 时 发 现 潜在 的 风险 隐患 。 
研究 分 析 发 现 : 巴 在 学 生 个 体 画像 中 ， 通 过 对 学 生 画 
像 标 签 信息 的 解读 ， 可 以 对 学 生 消费 、 学 业 和 社交 3 
个 方面 的 情况 进行 了 解 ， 实 现 学 生 个 体 的 动态 监测 ; 
包 在 学 生 群 体 画像 中 ， 通 过 聚 类 分 析 的 方法 ， 可 以 圈 
选 不 同 特征 的 学 生 群 体 ， 尤 其 是 在 消费 行为 方面 ， 深 
度 分 析 学 生 的 活跃 度 和 稳定 度 特征 ， 既 可 以 为 宏观 层 
面 的 学 生 观 测 提 供 依据 ， 又 为 探寻 学 生 不 同行 为 要 素 
间 的 相关 性 提供 了 新 的 思路 ; 加 在 应 用 表征 层面 ， 融 
合 多 场景 的 学 生 面 像 可 以 同时 实现 高 校 异常 识别 与 预 
警 、 群 体 关注 与 引导 和 资源 规划 与 调节 ， 大 大 拓宽 了 
研究 的 应 用 场景 ， 提 升 高 校 教育 教学 管理 能 效 。 

在 大 数据 时 代 下 ， 信 息 化 的 高 校 管理 已 成 为 当代 
的 研究 重点 ， 为 了 更 好 地 实现 高 效 、 智 能 、 多 元 化 管 
理 ， 学 生 画 像 提供 了 一 种 新 的 研究 思路 。 但 受 数据 、 
算法 的 局 限 性 ， 学 生 画 像 的 准确 性 和 易 用 性 还 有 待 提 
高 ， 既 有 现实 条 件 的 约束 ， 也 有 研究 手段 的 不 足 ， 在 
未 来 的 研究 中 ， 应 通过 更 广 地 调研 研 来 完善 大 学 生 面 
像 构 建 体系 ， 并 不 断 尝 试 改 进 更 为 合适 的 画像 技术 ， 
将 高 校 学 生 面 像 应 用 到 更 多 业务 场景 中 。 
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Construction of College Students' "Consumption-Academic-Social" Profiles from the 
Perspective of Multi-source Data Fusion 


HUANG Taihua', ZHANG Tao”, WANG Lei? 
(1. School of Information Management, Heilongjiang University, Harbin 150080; 2. School of Data Science and Technology, 


Heilongjiang University, Harbin 150080) 


Abstract: [Purpose/Significance] Mining college student data and constructing studnet profiles is conducive to in-depth understanding of 
students' needs, improving management level, and promoting intelligent service. [Method/Process] Based on the multi-source data 
mainly generated by the management and service process of colleges and universities, student profiles were developed by focusing on 
consumption, academic and social indicators, analyzing the characteristics of students, using the Scikit-Learn tool of Python, and 
applying the K-means clustering algorithms. Empirical research was carried out and representativeness of student portraits from 
individual and group perspectives was studied. [Results/Conclusions] First, this paper attempts to utilize a new data fusion perspective, 
by fusing explicit data with implicit data, and generating three-dimensional indicators of consumption behavior, academic behavior, and 
social behavior. Secondly, in order to solve the problem of single application scenario in previous research, the method of user profile 
construction is used to realize the fusion of multiple scenarios. Finally, based on the real student data, this study uses K-means clustering 
algorithm to select groups of students with different characteristics on the basis of previous research. The data of college students is 
analyzed, and further empirical research is carried out to describe the "consumption-academic-social" profiles of college students. 
Constructing student profiles from the perspective of multi-source data fusion can effectively provide a basis for decision-making by 
different units in colleges and universities, such as academic affairs,. Especially in the post-epidemic era, the profiles of college students 
can detect potential risks in time. The study found that at the individual level, by interpreting the label information of students' portraits, 
it is possible to understand the 3 aspects of students' consumption, academics and social interaction, and realize dynamic monitoring of 
individual students. At the group level, through cluster analysis, students with different characteristics can be selected, especially in 
terms of consumption behavior, and the characteristics of students’ activity and stability can be deeply analyzed, which can not only 
provide a basis for the macro-level observation of students, but also provide new ideas for exploring the correlation between different 
behavioral elements of students. At the application level, the integration of multi-scenario student profiles can simultaneously realize 
abnormal identification and early warning, group attention and guidance, and resource planning and adjustment, which greatly broadens 
the application scenarios of research and improves the energy efficiency of education and teaching management in colleges and 
universities. However, due to the limitations of data and algorithms, the accuracy and ease of use of student portraits still need to be 
improved. There are both constraints from practical conditions and insufficient research methods. In future research, more extensive 
research should be used to improve college student profile construction system, and constantly develop more suitable techniques. 


Keywords: student profile; consumption analysis; social analysis; academic analysis; K-means clustering; information behavior 
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